4. MODELLING OVERVIEW

Scorecard with Logistic Regression (model standard di Fintech dan bank)

Kelebihan dari penggunaan WoE, IV, dalam Credit Scoring dengan Logistic Regression:

  1. Fleksibel Dapat menangani missing value dan nilai outlier dengan baik
  2. Mengikuti syarat statistik Karena logistic regression adalah distribusi logaritmik. WoE dan IV membuat transformasi nilai variabel mengikuti logaritmik juga.
  3. Mudah penggunaannya Karena tidak perlu membuat dummy variables
  4. Dapat menunjukan hubungan trend yang jelas antara variabel dengan nasabah yang buruk

Hasil dari Information Value akan menunjukan kemampuan prediksi dari variabel tersebut, secara umum interpretasi dari IV adalah:

  1. < 0.02: tidak berguna untuk prediksi
  2. 0.02 to 0.1: memiliki kemampuan prediksi yang lemah
  3. 0.1 to 0.3: prediksi yang cukup bagus
  4. 0.3 to 0.5: prediksi yang kuat
  5. ">0.5" : prediksi sangat kuat (bahkan terlalu bagus, cek sekali lagi jika ada kesalahan dalam pengumpulan data)

CONTOH INTERPRETASI

Pada grafik chart trend dari rasio pembayaran, kita dapat melihat ada nilai IV dari rasio pembayaran yaitu 0.7431. Grafik chart trend juga membagi rasio pembayaran menjadi tiga kelompok yaitu

Kelompok 0 - 1% : dimana terdapat 7,765 nasabah dengan rasio pembayaran antara 0 hingga 1%. Jumlah nasabah 7,765 merupakan 61% dari semua total nasabah di dataset. Kelompok rasio ini memiliki 13.5% nasabah yang akhirnya gagal bayar. Kelompok 1 - 8% : terdapat 3,415 nasabah yang merupakan 27.3% dari total distribusi. Dengan rasio gagal bayar berupa 1.3% Kelompok > 8% : hanya terdapat 1,320 nasabah (10.6%), dengan rasio gagal bayar sekitar 3.1% Secara umum berarti trend dari rasio pembayaran menunjukan bahwa semakin tinggi rasio pembayaran, maka semakin kecil kemungkinan gagal bayar.

INTERPRETASI GRAFIK K-S DAN ROC

K-S atau Kolmogorov-Smirnov mengukur kinerja model klasifikasi. Lebih tepatnya, K-S adalah ukuran tingkat pemisahan antara distribusi baik dan buruk. Nilai K-S adalah 100 jika model dapat membedakan yang baik dan buruk secara sempurna. Di sisi lain, jika model tidak dapat membedakan antara baik dan buruk, maka seolah-olah model memilih kasus secara acak dari populasi, K-S akan menjadi 0. Dalam sebagian besar model klasifikasi, K-S akan jatuh antara 0 dan 100. Pada umumnya, minimal KS adalah 20 sebagai batas minimum menggunakan model tersebut.

Grafik ROC mirip dengan grafik kenaikan atau angkat karena grafik tersebut menyediakan sarana perbandingan antara model klasifikasi. Idealnya, kurva akan naik cepat ke kiri atas yang berarti model memprediksi kasus dengan benar. Garis merah diagonal adalah untuk model acak. Area di bawah kurva ROC (atau disebut AUC) sering digunakan sebagai ukuran kualitas model klasifikasi. Pengklasifikasi acak memiliki area di bawah kurva 0,5, sedangkan AUC untuk pengklasifikasi sempurna sama dengan 1. Dalam praktiknya, sebagian besar model klasifikasi memiliki AUC antara 0,5 dan 1.

INTERPRETASI GRAFIK PSI

PSI (Population Stability Index) adalah evaluasi model yang sering diterapkan untuk mengukur apakah calon nasabah yang ingin mengajukan aplikasi masih memiliki profil yang sama ketika model dibuat. PSI dari library scorecard akan membagi hasil scorecard menjadi delapan bagian besar, dan melihat apakah jumlah populasi antara data Train dan Test memiliki perbedaan populasi yang besar atau tidak.

Tujuan dari PSI adalah untuk mengetahui apakah profile kebanyakan calon nasabah sudah berubah, sehingga diperlukan untuk membuat model baru atau tidak.

Hasil dari PSI dapat diinterpretasikan sebagai berikut:

  1. Jika PSI<= 0.1 maka tidak ada perubahan (tidak perlu mengubah model)
  2. Jika 0.1 - 0.25, terjadi perubahan kecil (akan tetapi tetap tidak perlu mengubah model)
  3. Jika PSI> 0.25, terjadi perubahan signifikan (perlu diinvestigasi lebih lanjut apakah perubahan profile terjadi secara permanen atau tidak?)

Dari hasil print(card) kita dapat melihat bahwa model scorecard memberikan penilaian sebagai berikut: range points

  1. rasio_pembayaran [-inf,1.0) -14.0
  2. rasio_pembayaran [1.0,8.0) 63.0
  3. rasio_pembayaran [8.0,inf) 36.0

Dari hasil model, kita dapat melihat bahwa rasio pembayaran yang kurang dari 1% diberikan nilai negatif 14 oleh model tersebut, sedangkan untuk nilai lainnya diberikan nilai positif. Ini berarti semakin rendah rasio pembayaran, semakin kecil nilai dari credit scoring nya dan semakin kecil pula kemungkinan nasabah tersebut akan dapat membayar utangnya.

Topic 5: Evaluation and Deployment

teman-teman akan belajar cara mengevaluasi model yang telah kita buat, apakah model yang telah kita buat bagus atau tidak. Lalu, kita juga akan belajar cara menerapkan model yang telah kita buat dalam proses kerja.

interpretasi confusion matrix

Dari hasil confusion matrix hasilnya adalah true positive 3,374 dan true negative 26, dengan false positive at 301 and false negative at 26. Dalam pembuatan confusion matrix dalam Python, Positive adalah berhasil bayar dan Negative adalah gagal bayar.

Ingatlah bahwa confusion matrix ini akan berbeda-beda setiap kali kita jalankan koding ini karena pembentukan data train dan test dilakukan secara acak.